MetaAI對於SeamlessM4T做了很多不同的效能評估,本篇試圖了解官方所用的評估方式及標準,作為日後開發相關模型時的評估依據,也對於當前的機器翻譯(Machine Translation)開發者所在意的評估層面有個理解。
SeamlessM4T-Large 是MetaAI發布的其中一種的型號,性能號稱優於其他同樣為最先進的端對端 S2TT模型 (AudioPaLM-2-8BAST)。轉譯成英語時Fleurs提高了 4.2個BLEU。轉譯英文到其他語言時,相較於XLSR-2B-S2T系統,SeamlessM4T-Large在CoVoST2資料集上改善了2.8 個BLEU。
在S2ST功能方面,SeamlessM4T-Large為統整性的端對端模型,它的的Fleurs比其他三階段串聯模型(ASR、T2TT 和 TTS,非端對端模型)高了2.6個BLEU。在CVSS資料集上SeamlessM4T-Large的性能優於二階段串聯模型(Whisper-Large-v2 + YourTTS [Casanova et al., 2022]),提高了8.5個BLEU。從英語轉譯成其他語言時,24 種評估語言的XSTS分數高於4(滿分5分);從其他語言轉譯成英語,24種語言中的其中7種表現相較於Whisper-Large-v2系統有顯著改進。SeamlessM4T-Large的性能也優於 Whisper-Large-v2,在77 種重疊語言上Fleurs的WER降低了45%。在評估Flores的T2TT時與NLLB-3.3B性能相匹配,翻譯成英語時平均提高1個chrF++分數。
CVSS:大規模多語言到英語的S2ST語料庫,涵蓋從21種語言到英語的句子並行S2ST翻譯組合。CVSS源自Common Voice語音語料庫和CoVoST2語音對文本翻譯語料庫,CVSS中的翻譯語音是通過在 LibriTTS 語料庫上訓練的兩個最先進的 TTS 模型合成的。CVSS包括CoVoST2中所有 21個 x-en 語言組合的兩個版本的口語翻譯:
XSTS(Cross-lingual semantic textual similarity systems):用來評估兩個不同語言的句子間的含義相似度。最先進的算法通常採用機器翻譯並結合大量特徵,使得該方法受到嚴格監督且資源豐富,不過難以用於資源匱乏的語言。
重疊語言:不同語言同時交雜。
WER:語音字數中翻譯的錯誤率,翻譯錯字數與總字數的比例。語音轉文本的WER越低代表準確性越高。例如20%的WER表示準確度為80%。
Flores:英語和四種資源缺少的語言(尼泊爾語、僧伽羅語、高棉語和普什圖語)之間機器翻譯的數據集,來自於維基百科翻譯的句子。
chrF++:chrF和chrF++是兩個MT評估指標。它們都使用F-score來進行n元語法(n-grams)評估。而ChrF++還加入n元語法使直接評估的相關性更強。
MetaAI另外開發了Blaser 2.0,一種無文本的文本或語音翻譯評估指標。在S2TT和S2ST的表現,Blaser 2.0能夠跨語音和文本進行評估,從結果來看SeamlessM4T-Large比 Whisper-Large-v2表現更好,能夠抵抗背景噪聲和揚聲器變化。
至於Responsible AI部分,MetaAI關注說壞話(toxicity, 毒性)和性別偏見評估。說壞話的發生率較低。與最先進的模型Whisper-Largev2相比,顯著減少了說壞話比率26%~63%。另外MetaAI評估整體偏見的性別偏見數據集,發現SeamlessM4T翻譯時將中性術語過度轉譯為男性說話方式,同時當性別變化率約 3% 時的表現缺乏穩健性。
MT(Machine Translation)系統的評估標準常用的有BLEU、XSTS、WER、chrF++以及Blaser 2.0五種。BLEU促使MT系統接近人類翻譯的品質;XSTS用來評估兩個不同語言的句子間的含義相似度;WER為語音字數的翻譯錯誤率,為翻譯錯的字數與總字數的比例,使用F指數來進行n-grams匹配。而ChrF++用F-score來進行n元語法(n-grams)評估。最後Blaser 2.0能跨語音和文本模式進行評估。這些都是日後自行開發模型時,可用來評估效能的標準依據。